#OpenAI GPT-5

一早起来看到2个顶级模型都pass了ICPC金牌水平 官方措辞略有不同 让GPT-5 Thinking总结了一下: 下面这两段其实说的是ICPC 世界总决赛期间的两场“AI 试验赛道”,都不计入官方榜单,但使用了同一套题与评测数据,由 ICPC 监督,用来研究 AI 开发工具如何融入竞赛与教学。 共同点(两则通告都强调) 都用 49 届 ICPC 世界总决赛(巴库) 的同一套 12 题与评测数据,由 ICPC 组织/监督,目标是探索 AI 工具与竞赛/教育的结合;均非官方参赛队伍与正式排名。(Kattis) 官方总决赛本身的核心约束:三人一机、5 小时;(世界总决赛环境通常无互联网)。 关键区别 1) 赛道/平台不同 Google DeepMind(Gemini) 参加的是 World Finals Online Judge 实验:远程在线环境,镜像总决赛规则(5 小时、同题、同评测)。对应的公开开放赛在 Kattis(ICPC World Finals 2025 – Open)。(Kattis) OpenAI 参加的是 World Finals Local Judge 实验:在巴库现场的本地评测赛道,面向到场的顶尖选手/教练等的开放活动,本次为 AI 增设了专用测试环境(OpenAI 为唯一 AI 队)。(X (formerly Twitter)) 2) 比赛环境与限制 Online Judge(DeepMind):远程、遵循总决赛规则;DeepMind称其在“遵循 ICPC 规则”的在线环境完成 5 小时解题。 Local Judge(OpenAI):现场本地评测,规则不同于官方总决赛的“三人一机、无网”硬性限制,属于开放式侧活动;此次特设 AI 测试环境,供 OpenAI 提交。*(Local Judge 的具体细则由主办方现场设定,媒体与 ICPC 社媒将其描述为与官方赛制不同的实验性赛道。)* (X (formerly Twitter)) 3) 成绩与亮点 DeepMind(Gemini 2.5):解出 10/12;若计入榜单将相当于第 2 名;并唯一解出一道人类队伍未解出的题(常被媒体提到为题 C)。(The Guardian) OpenAI(GPT-5 系列):在 Local Judge 实验中 12/12 全解(媒体报道:其中 11 题一次通过),属金牌/冠军级别水准。(Financial Times) 4) 与官方总决赛的关系 两者都不是官方参赛队,不列入官方最终成绩表;官方成绩与奖牌仍由现场人类队伍按正式赛制产出。(World Finals) 一句话总结: DeepMind:远程参加 Online Judge 实验 → 5 小时同题环境下解出 10 题、相当第 2。 OpenAI:现场参加 Local Judge 实验(开放式本地侧赛,为 AI 加测环境)→ 解出 12 题、达冠军级。(X (formerly Twitter))